Aprendizaje conceptual
Ejemplo: Dedicación == 'Alta' OR Horario == 'Nocturno'
La formula sería: <'Alta',
El algoritmo comenzaría con:
<
Pero el siguiente paso tendría más de una opción de hipótesis más general que además confirmen el primer ejemplo de la tabla (
Ej: <Alta,
A su vez, ya no podemos ignorar los ejemplos negativos.
Sesgo Inductivo: del algoritmo L es el conjunto mínimo de suposiciones B tales que:
Para que un algoritmo aprenda, debe tener algún sesgo inductivo.
Sesgo preferencial: el algoritmo prefiere ciertas hipótesis sobre otras.
Ej.: ID3 o Find-S
Sesgo restrictivo: se maneja un espacio de hipótesis incompleto.
Ej.: Naive Bayes
...
KNN -> re-escalado o normalización
Aprendizaje conceptual, ID3 y Naive Bayes -> particionar en intervalos.
ID3 puede hacerlo en el paso recursivo de manera que maximice la ganancia de elegir ese atributo.
KNN, Redes Neuronales, Regresión Lineal y Logística:
label-encoding si hay orden total en los valores, one-hot-encoding si no.
Accuracy: ¿cuántos casos predice h correctamente?
Combinando precisión y recuperación se obtiene la medida-F:
A | h(x)=a | h(x)=b | h(x)=c | Total |
---|---|---|---|---|
y=a | 30 | |||
y=b | 30 | |||
y=c | 40 | |||
23 | 41 | 46 | 100 |
En el ejemplo anterior:
¿Qué medida es más "útil"?. Como toda medida, depende de lo que queremos evaluar:
- La micro-average da más peso a las clases grandes en el análisis general
- La macro-average permite evaluar mejor que tan "equilibrado" es el comportamiento de mi clasificador
- En lo posible, reportar ambas y analizar según mi problema
La ‘mejor’ hipótesis es la hipótesis más probable dados los datos, que maximiza
Dado que los datos de entrenamiento siempre son los mismos, P(D) no cambia, por lo tanto:
Bajo la hipótesis que
Asume independencia de los atributos dada una hipótesis.
O sea:
Donde:
La idea es crear un clasificador ‘perezoso’ para clasificar una nueva instancia, utilizo aquellas que más se le parecen de las que ya conozco.
Queremos aproximar un concepto, utilizando las k instancias más
cercanas a un elemento <a1,...,an> que deseamos clasificar.
La clasificación de una instancia es parecida a las de sus k vecinos (cercanía implica similitud).
Generalizamos KNN, creando una aproximación local de la función objetivo y construimos una función h que aproxime a los puntos cercanos a
Luego de clasificar la nueva instancia, podemos descartar a la hipótesis encontrada: cada instancia genera una nueva aproximación.
Al igual que KNN y RLP, clasificamos una instancia en base a casos parecidos: en lugar de puntos en un espacio euclídeo, las instancias se representan con atributos más complejos.
En el aprendizaje no supervisado trabajamos directamente con las instancias sin anotar, buscando patrones y relaciones dentro del conjunto.
Para determinar qué tan parecidas son las instancias, se usan las distancias.
Input: S (dataset), K (número de clusters)
Output: clusters
1: Inicializar K centroides aleatoriamente
2: Mientras no se de la condición de fin:
3: Asignar cada instancia al centroide más cercano
4: Recalcular los centroides
5: Retornar los clusters
Necesitamos una forma de comparar el clustering generado con el derivado de las clases.
La medida más utilizada es el índice de Rand:
- Dados dos agrupamientos
-
-
-
-
- El
No tenemos clusters "verdaderos", tenemos que hacer una validación interna.
La validación interna busca medir principalmente la cohesión de los clusters, y su separación.
El Índice Davies Boulding: mide la similitud promedio entre cada cluster y el cluster más similar a él. Si construimos una matriz que balancea la distancia promedio
No es fácil identificar un número "óptimo" clusters.
En general, si aumentamos el número de clusters, nuestros clusters son "mejores".
... pero corremos el riesgo de sobre-ajuste.
Método del Codo: buscar el punto donde agregar más clusters no vale la pena porque la mejora deja de ser importante.
Está bastante resumido en:
Aprendizaje Por Refuerzos
Regla de actualización, luego de dar un paso del estado
La regresión lineal es una forma de aprendizaje supervisado donde, a partir de un vector
La función de costo es aquella que mide qué tan cercano es
Las ecuaciones normales proveen una forma cerrada de calcular los valores de
Es un algoritmo de búsqueda iterativo, que parte de una estimación inicial de
El algoritmo comienza con un
Se aplica la función logística a la salida de la regresión lineal, y sobre eso se establece una barrera de decisión.
En general:
La matriz
De manera similar